尽管计算高昂和沟通成本,牛顿型方法仍然是分布式培训的吸引人选择,因为它们对不良条件的凸问题进行了稳健性。在这项工作中,我们研究了通信压缩和曲率信息的聚合机制,以降低这些成本,同时保留理论上优越的局部收敛保证。我们证明了Richtarik等人最近开发的三点压缩机(3PC)类。 [2022]对于梯度交流也可以推广到Hessian通信。该结果开辟了各种各样的沟通策略,例如承包压缩}和懒惰的聚合,可用于压缩过高的成本曲率信息。此外,我们发现了几种新的3PC机制,例如自适应阈值和Bernoulli聚集,这些机制需要减少通信和偶尔的Hessian计算。此外,我们扩展和分析了双向通信压缩和部分设备参与设置的方法,以迎合联合学习中应用的实际考虑。对于我们的所有方法,我们得出了与局部无关的局部线性和/或超线性收敛速率。最后,通过对凸优化问题进行广泛的数值评估,我们说明我们的设计方案与使用二阶信息相比,与几个关键基线相比,我们的设计方案达到了最新的通信复杂性。
translated by 谷歌翻译
分布式优化的最新进展表明,与适当的通信压缩机制的牛顿型方法可以保证与第一订单方法相比的局部速率和低通信成本。我们发现这些方法的通信成本可以进一步减少,有时会急剧下降,有一个令人惊讶的简单技巧:{\ EM基础学习(BL)}。这些想法是通过在矩阵空间中的变化和将压缩工具应用于新的表示来改变当地黑森州的通常代表。为了展示使用自定义基础的潜力,我们设计了一种新的牛顿型方法(BL1),其通过{\ em bl}技术和双向压缩机制来降低通信成本。此外,我们向部分参与提供两个替代扩展(BL2和BL3)以适应联合学习应用。我们证明了局部线性和超连线率无关,无关。最后,我们通过比较多种第一和第二〜订单方法来支持我们的索赔。
translated by 谷歌翻译
({\ Mathbf X})\ phi_i({\ Mathbf y})$其中$ \ {(\ lambda_i,\ phi_i)\ as是eigenvalue-eigenVector-eigenVector对,是通信操作员的。众所周知,这种无限表示会均匀地汇合到内核$ k $。我们根据特征值的衰减率估算了这种融合的速度,并证明,以$ \ mathcal {o} \ big(\(\ big((\))sum_ {i = n+1}^\ infty \ lambda_i)^{\ frac {m} {m+n}} {m+n}} \ big)$或$ \ mathcal {o}}^\ infty \ lambda^2_i)^{\ frac {m} {2m+n}}} \ big)$。最后,我们证明了结果的某些应用在具有连续根和其他力量的整体操作员的频谱外观上。
translated by 谷歌翻译
我们展示了哈萨克克坦命名实体识别的数据集的开发。该数据集是在哈萨克公开可用的注释Corpora的情况下建立的,以及包含简单但严谨的规则和示例的注释指南。基于IOB2计划的数据集注释是在第一个作者的监督下由两个本土哈萨克演讲者进行电视新闻文本。生成的数据集包含112,702个句子和25个实体类的136,333注释。最先进的机器学习模型自动化哈萨克人命名实体识别,具有最佳性能模型,在测试集上实现了97.22%的精确匹配。用于培训模型的注释数据集,指南和代码可从HTTPS://github.com/kaznerd自由下载4.0许可。
translated by 谷歌翻译
We reformulate unsupervised dimension reduction problem (UDR) in the language of tempered distributions, i.e. as a problem of approximating an empirical probability density function by another tempered distribution, supported in a $k$-dimensional subspace. We show that this task is connected with another classical problem of data science -- the sufficient dimension reduction problem (SDR). In fact, an algorithm for the first problem induces an algorithm for the second and vice versa. In order to reduce an optimization problem over distributions to an optimization problem over ordinary functions we introduce a nonnegative penalty function that ``forces'' the support of the model distribution to be $k$-dimensional. Then we present an algorithm for the minimization of the penalized objective, based on the infinite-dimensional low-rank optimization, which we call the alternating scheme. Also, we design an efficient approximate algorithm for a special case of the problem, where the distance between the empirical distribution and the model distribution is measured by Maximum Mean Discrepancy defined by a Mercer kernel of a certain type. We test our methods on four examples (three UDR and one SDR) using synthetic data and standard datasets.
translated by 谷歌翻译